所謂工欲善其事、必先利其器,在了解完 Hugging face 以後,那麼就是時候要利用免費的資源了,首先我們需要先註冊一隻帳號**加入抱臉怪**,Hugging face 在下載模型也能用Command Line進行,真的是十分方便。
在世界的彼端總會有人和你在做一樣的研究,結合你們的進度,在 Hugging Face Hub,你可以找到上萬個人家訓練好的 AI 模型。
如下圖,我們可以在 Models 這個選單,看到很多預訓好的 Models。
我們可以點進Models裡面,像是如圖這個stabilityai/stable-diffusion-xl-base-1.0
我們可以看到很多的資訊、中也有模型的原理和授權,包含了可用的AI 框架、引用的論文等等的資訊,其,在右邊的面版還有一個 Hosted inference API,你可以在這裡玩一下這個 Model,另外還有 Datasets 的部份,很多資料集可以取得。我們也會用到許多 Hugging Face Hub 的功能。
除了 Hub 以外,最重要的就是 Hugging Face 提供的 Library 啦!有了這些 Library,我們才有辦法更方便地來使用 Transformer 做自然語言處理的應用程式。這些 Library 中,有三個特點會是最常使用到的。
Transformer 是重中之重,Hugging Face 就是靠這個 Library 讓 Transformer 更容易被大家使用和進一步開發應用程式,Transformer是什麼我可以再做一整篇用來介紹注意力(attention)這個概念,並把這個變形金剛用連你啊罵養的吃餅乾金剛鸚鵡都能學得會,但在那之前,我先簡單帶過就好。
https://github.com/huggingface/transformers
Tokenize 一般翻譯為斷詞,就是把一個句子裡面的每個字都拆出來。Tokenizers 還提供了很多 tokenization 的策略、還有前處理及後處理等功能。
https://github.com/huggingface/tokenizers
製作AI模型,最大的困難點往往在於資料的收集,在未來精選的資料集甚至會是專櫃的商品。而 Hugging Face Datasets 提供了和 Hub 取得資料集的 API,還可以和 Pandas 做交互使用,讓工程師輕鬆處理資料。
https://github.com/huggingface/datasets